🔴Как системно оценить качество предобработанных данных перед обучением большой языковой модели (LLM)
Перед тем как запускать дорогостоящий процесс обучения LLM, важно убедиться, что ваши данные чисты, релевантны и структурированы.
Оценка должна включать как количественные, так и качественные метрики.
➡️Количественные метрики:
😶Распределение токенов Проверьте, не доминируют ли специальные токены, мусорные фрагменты или нерелевантные конструкции. Ожидаемые токены (например, ключевые слова доменной области) должны иметь разумную частоту.
😶Покрытие словаря Оцените, насколько хорошо охвачены часто встречающиеся слова и сабворды в вашей предметной области. Можно использовать частотный анализ на корпусе.
😶Статистика по длине документов Сравните среднюю и медианную длину документов с ожидаемыми значениями. Аномально короткие или длинные тексты могут быть ошибками разметки или дубликатами.
😶Языковое распределение В мультиязычном корпусе важно убедиться, что каждый язык представлен в правильной пропорции. Используйте модель определения языка (например, fastText или langid.py).
➡️Качественные проверки:
😶Ручная выборка документов Просмотрите случайные примеры: содержимое должно быть осмысленным, без мусора, персональных данных или несоответствий тематике.
😶Проверка дубликатов и шаблонов Автоматически найдите повторяющиеся документы или шаблонные страницы (например, элементы веб-навигации).
😶Оценка перплексии на тестовой модели Можно применить небольшую предварительно обученную LLM к данным, чтобы вычислить перплексию. Высокая перплексия может сигнализировать о шуме или нерелевантности.
😶Автоматическое обнаружение аномалий Используйте кластеризацию или модели выявления аномалий, чтобы найти подозрительные группы документов.
🔴Как системно оценить качество предобработанных данных перед обучением большой языковой модели (LLM)
Перед тем как запускать дорогостоящий процесс обучения LLM, важно убедиться, что ваши данные чисты, релевантны и структурированы.
Оценка должна включать как количественные, так и качественные метрики.
➡️Количественные метрики:
😶Распределение токенов Проверьте, не доминируют ли специальные токены, мусорные фрагменты или нерелевантные конструкции. Ожидаемые токены (например, ключевые слова доменной области) должны иметь разумную частоту.
😶Покрытие словаря Оцените, насколько хорошо охвачены часто встречающиеся слова и сабворды в вашей предметной области. Можно использовать частотный анализ на корпусе.
😶Статистика по длине документов Сравните среднюю и медианную длину документов с ожидаемыми значениями. Аномально короткие или длинные тексты могут быть ошибками разметки или дубликатами.
😶Языковое распределение В мультиязычном корпусе важно убедиться, что каждый язык представлен в правильной пропорции. Используйте модель определения языка (например, fastText или langid.py).
➡️Качественные проверки:
😶Ручная выборка документов Просмотрите случайные примеры: содержимое должно быть осмысленным, без мусора, персональных данных или несоответствий тематике.
😶Проверка дубликатов и шаблонов Автоматически найдите повторяющиеся документы или шаблонные страницы (например, элементы веб-навигации).
😶Оценка перплексии на тестовой модели Можно применить небольшую предварительно обученную LLM к данным, чтобы вычислить перплексию. Высокая перплексия может сигнализировать о шуме или нерелевантности.
😶Автоматическое обнаружение аномалий Используйте кластеризацию или модели выявления аномалий, чтобы найти подозрительные группы документов.
A leaked Telegram discussion by 50 so-called crypto influencers has exposed the extraordinary steps they take in order to profit on the back off unsuspecting defi investors. According to a leaked screenshot of the chat, an elaborate plan to defraud defi investors using the worthless “$Few” tokens had been hatched. $Few tokens would be airdropped to some of the influencers who in turn promoted these to unsuspecting followers on Twitter.
Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.
Библиотека собеса по Data Science | вопросы с собеседований from nl